我们对13个最近的模型进行了全面评估,用于使用两个流行的收藏(MS MARCO文档和Robust04)排名长期文档。我们的模型动物园包括两个专门的变压器模型(例如longformer),它们可以处理长文档而无需分配它们。一路上,我们记录了有关培训和比较此类模型的几个困难。有些令人惊讶的是,我们发现简单的第一个基线(满足典型变压器模型的输入序列约束的截断文档)非常有效。我们分析相关段落的分布(内部文档),以解释这种现象。我们进一步认为,尽管它们广泛使用,但Robust04和MS Marco文档对于基准长期模型并不是特别有用。
translated by 谷歌翻译
最近对比学习在从未标记数据学习视觉表现方面表现出显着进展。核心思想正在培训骨干,以不变的实例的不同增强。虽然大多数方法只能最大化两个增强数据之间的特征相似性,但我们进一步产生了更具挑战性的训练样本,并强迫模型继续预测这些硬样品上的判别表示。在本文中,我们提出了Mixsiam,传统暹罗网络的混合方法。一方面,我们将实例的两个增强图像输入到骨干,并通过执行两个特征的元素最大值来获得辨别结果。另一方面,我们将这些增强图像的混合物作为输入,并期望模型预测接近鉴别的表示。以这种方式,模型可以访问实例的更多变体数据样本,并继续预测它们的不变判别表示。因此,与先前的对比学习方法相比,学习模型更加强大。大型数据集的广泛实验表明,Mixsiam稳步提高了基线,并通过最先进的方法实现了竞争结果。我们的代码即将发布。
translated by 谷歌翻译
无监督的人重新识别(RE-ID)由于其可扩展性和对现实世界应用的可能性而吸引了增加的研究兴趣。最先进的无监督的重新ID方法通常遵循基于聚类的策略,该策略通过聚类来生成伪标签,并维护存储器以存储实例功能并代表群集的质心进行对比​​学习。这种方法遇到了两个问题。首先,无监督学习产生的质心可能不是一个完美的原型。强迫图像更接近质心,强调了聚类的结果,这可能会在迭代过程中积累聚类错误。其次,以前的方法利用在不同的训练迭代中获得的功能代表一种质心,这与当前的训练样本不一致,因为这些特征不是直接可比的。为此,我们通过随机学习策略提出了一种无监督的重新ID方法。具体来说,我们采用了随机更新的内存,其中使用集群的随机实例来更新群集级内存以进行对比度学习。这样,学会了随机选择的图像对之间的关​​系,以避免由不可靠的伪标签引起的训练偏见。随机内存也始终是最新的,以保持一致性。此外,为了减轻摄像机方差的问题,在聚类过程中提出了一个统一的距离矩阵,其中减少了不同摄像头域的距离偏置,并强调了身份的差异。
translated by 谷歌翻译
在计算机音乐和心理声学中,感知响度与身体属性之间的关系是一个重要的主题。对“相等大通轮廓”的早期研究可以追溯到1920年代,从那以后,对强度和频率进行了测量的响度已被修订了多次。然而,大多数研究仅关注合成的声音,并且很少有合理的自然色调理论。为此,我们通过建模钢琴音调在本文中研究了天然音调感知的理论和应用。该理论部分包含:1)对音高的钢琴相等大小轮廓的准确测量,以及2)一个机器学习模型,能够纯粹基于基于人类主题测量的光谱特征来推断响度。至于应用程序,我们将理论应用于钢琴控制转移,其中我们调整了两个不同玩家钢琴(在不同的声学环境中)上的MIDI速度,以达到相同的感知效果。实验表明,我们的理论响度建模和相应的性能控制转移算法都显着优于其基准。
translated by 谷歌翻译
行为预测在集成自主驾驶软件解决方案中起着重要作用。在行为预测研究中,与单一代理行为预测相比,交互行为预测是一个较小的领域。预测互动剂的运动需要启动新的机制来捕获交互式对的关节行为。在这项工作中,我们将端到端的关节预测问题作为边际学习和车辆行为联合学习的顺序学习过程。我们提出了ProspectNet,这是一个采用加权注意分数的联合学习块,以模拟交互式剂对之间的相互影响。联合学习块首先权衡多模式预测的候选轨迹,然后通过交叉注意更新自我代理的嵌入。此外,我们将每个交互式代理的个人未来预测播放到一个智慧评分模块中,以选择顶部的$ K $预测对。我们表明,ProspectNet优于两个边际预测的笛卡尔产品,并在Waymo交互式运动预测基准上实现了可比的性能。
translated by 谷歌翻译
Inspired by progress in large-scale language modeling, we apply a similar approach towards building a single generalist agent beyond the realm of text outputs. The agent, which we refer to as Gato, works as a multi-modal, multi-task, multi-embodiment generalist policy. The same network with the same weights can play Atari, caption images, chat, stack blocks with a real robot arm and much more, deciding based on its context whether to output text, joint torques, button presses, or other tokens. In this report we describe the model and the data, and document the current capabilities of Gato.
translated by 谷歌翻译
我们通过特征平均值研究了一种非参数计算方法,其中对先验特征的期望进行了更新,以产生预期的内核后验特征,基于学识渊博的神经网或观测值的内核特征的回归。贝叶斯更新中涉及的所有数量都从观察到的数据中学到了完全不含模型的方法。最终的算法是基于重要性加权的内核贝叶斯规则(KBR)的新颖实例。这会导致对KBR的原始方法具有较高的数值稳定性,而KBR需要运算符倒置。我们使用对无穷大标准中重要性加权估计器的新一致性分析来显示估计器的收敛性。我们评估了KBR关于挑战合成基准测试的,包括涉及高维图像观测值的状态空间模型的过滤问题。与原始KBR相比,重要性加权KBR的经验表现均匀地表现出更好的经验性能,并且具有其他竞争方法的竞争性能。
translated by 谷歌翻译
会话文本到SQL旨在将多圈自然语言查询转换为相应的SQL表示。会话文本到SQL最棘手的问题之一是建模多转查询的语义,并收集当前查询所需的正确信息。本文显示通过添加每个转弯和整个上下文的总结来显式建模语义更改,可以在将会话查询转换为SQL的情况下提高性能。特别是,我们在转弯谷物和谈话谷物中提出了两个会话建模任务。这两个任务只是用作辅助培训任务,以帮助多转对会话语义解析。我们在大型开放式对话文本到SQL数据集中进行了实证研究,实现了新的最先进结果。结果表明,该机制显着提高了多转语义解析的性能。
translated by 谷歌翻译
课程学习开始在语音增强区中茁壮成长,使原始频谱估计任务将原始频谱估计任务分成多个更容易的子任务以实现更好的性能。由此,我们提出了一种双分支关注变压器,称为DB-Aiat,以并行地处理光谱的粗糙和细粒度。根据互补视角,提出了一种幅度掩蔽分支以粗略地估计整体幅度谱,并且同时设计复杂的精制分支,设计成补偿缺失的光谱细节和隐式导出的相位信息。在每个分支机构内,我们提出了一种新的注意力互感器的模块,以替换用于时间序列建模的传统RNN和时间卷积网络。具体地,提出的注意力变压器包括自适应时间 - 频率注意力变压器块和自适应分层关注模块,旨在捕获长期时间频率依赖性以及进一步聚合全局分层上下文信息。语音库+需求的实验结果表明,DB-AIAT在以前的高级系统上产生了最先进的性能(例如,3.31 PESQ,95.6%的STOI和10.79dB SSNR),其型号尺寸相对较小(2.81米)。
translated by 谷歌翻译
本文讨论了具有丰富记录数据的域中的政策选择问题,但互动预算有限。解决此问题将在行业,机器人和推荐领域中安全评估和部署离线强化学习政策等。已经提出了几种违规评估(OPE)技术以评估仅使用记录数据的策略的值。然而,OPE的评估与真实环境中的完整在线评估之间仍然存在巨大差距。然而,在实践中通常不可能进行大量的在线互动。为了克服这个问题,我们介绍了\ emph {主动脱机策略选择} - 一种新的顺序决策方法,将记录数据与在线交互相结合,以识别最佳策略。这种方法使用ope估计来热启动在线评估。然后,为了利用有限的环境相互作用,我们决定基于具有表示政策相似性的内核函数的贝叶斯优化方法来评估哪个策略。我们使用大量候选政策的多个基准,以表明所提出的方法提高了最先进的OPE估计和纯在线策略评估。
translated by 谷歌翻译